下载模型
1 2
| export HF_ENDPOINT=https://hf-mirror.com huggingface-cli download --resume-download xai-org/grok-2 --local-dir /data/grok2
|
下载模型可能会失败很多次,需要在失败后继续运行下载命令
官方说明需要8个 40GB+ 的 GPU 才能运行
拉取 sglang
1
| docker pull lmsysorg/sglang:latest
|
拉取不下来,可以使用加速地址
运行
官方推荐命令为
1
| python3 -m sglang.launch_server --model /local/grok-2 --tokenizer-path /local/grok-2/tokenizer.tok.json --tp 8 --quantization fp8 --attention-backend triton
|
使用 docker 后,命令为:(A100 不能进行 fp8 量化,所以去除)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| docker run --gpus all --shm-size=2g -d \ -v /data/grok2:/data/grok2 \ -p 30000:30000 \ --name sglang-grok \ --restart unless-stopped \ -e NCCL_DEBUG=INFO \ cf-workers-docker-io-3hw.pages.dev/lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path /data/grok2/ \ --tokenizer-path /data/grok2/tokenizer.tok.json \ --tp-size 8 \ --attention-backend triton \ --host 0.0.0.0 \ --port 30000 \ --mem-fraction-static 0.8 \ --context-length 32768
|

